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结合 基因 遗传 和 贪 梦 搜 索 的 布谷 乌 社 区 检测 算法 


王 小 刚 ， 关 光辉， 周 宁 


(兰州 交通 大 学 电子 与 信息 工程 学 院 ,， 兰州 730070) 


摘 要 : 为 了 提高 复杂 网 络 社区 结构 挖掘 的 精度 ， 结 合 基 因 遗 传 和 贪 焚 搜索 提出 一 种 面向 模块 度 优化 的 布谷 鸟 社区 检 
测算 法 (GGCSCA)。 布 谷 鸟 种 群 在 有 序 邻 居 表 上 逐 维 随机 游 走 ， 并 采用 优质 基因 遗传 策略 ,使 得 种 群 高 效 优化 ， 同 时 应 
用 局 部 模块 度 增 量 最 大 化 的 贪 栓 偏 好 搜索 算法 快速 提升 种 群 质量 ， 以 取得 好 的 社区 划分 结果 。GGCSCA 在 基准 网 络 和 
经 典 网 络 上 进行 了 实验 ， 并 与 一 些 典 型 算法 进行 对 比 ， 结 果 说 明了 本 社区 发 现 算法 的 有 效 性 、 准 确 性 和 快速 收敛 性 ， 
具有 较 强 的 社区 识别 能 力 ， 能 够 精细 地 检测 出 网 络 社区 结构 。 

关键 词 : 复杂 网 络 ; 网 络 社 区 ; 布谷 岛 搜 索 算 法 ; 贪 焚 搜 索 ; 基因 遗传 
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Cuckoo search algorithm combining gene inheritance and 
greedy search for community detection 


Wang Xiaogang, Yan Guanghui, Zhou Ning 
(School of Electronic & Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China) 


Abstract: In order to improve the accuracy of community detection for complex networks, this paper proposed an algorithm 


based on cuckoo search algorithm combining gene inheritance and greedy search (GGCSCA) to optimize modularity for 


community detection. Cuckoos walked randomly on ordered adjacent table and employed gene inheritance strategy, which aim 


to optimize population efficiently. The algorithm improved population quality quickly by greedy preference search of local 


modularity increment maximum for the purpose of getting good result of community partition. GGCSCA has been tested on 
both benchmark networks and some typical complex networks, and compared with some typical community detection algorithms. 
Experimental results show the effectiveness, accuracy and fast convergence of this algorithm for discovering community 
structure. It has strong capability of community identification and can detect the structure of community finely. 
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擎 等 多 方面 3。 
复杂 网 络 是 对 复杂 系统 重要 特征 的 抽象 概括 ， 其 核心 思想 复杂 网 络 社区 挖掘 已 经 获得 了 广泛 的 研究 ， 涌 现 了 很 多 社 
是 将 现实 系统 中 所 有 实体 及 实体 间 的 关系 转换 为 网 络 的 节点 和 区 检测 算法 。 常 见 典 型 算法 主要 有 基于 图 分 解 、 分 裂 的 算法 ， 
边 ， 以 网 络 的 形式 来 描述 系统 中 各 部 分 之 间 的 关系 ， 便 于 深入 如 Kernighan-Lin 算法 让， 谱 分 法 向 ，GN 算法 员 ; 基于 凝聚 的 算 
分 析 系 统 结构 的 拓扑 特性 ， 揭 示 现 实 系统 的 本 质 规律 。 很 多 现 。 法 ， 如 Fast Newman 算法 钻 ， CNM 算法 四 ;基于 随机 游 走 的 方 
实 系统 可 以 表示 为 复杂 网 络 或 转换 为 复杂 网 络 ， 如 社交 网 络 、 法 ， 如 Walk Trapt" 算 法 ， 基 于 优化 的 算法 ， 这 种 方法 通过 对 某 
E 物 网 络 、 计 算 机 网 络 、 交 通 网 络 等 ， 复 杂 网 络 已 经 是 重要 的 种 社区 评价 函数 进行 优化 得 到 划分 结果 ， 常 见 的 是 基于 模块 度 
多 学 科 交 叉 研 究 领域 。 指标 的 优化 算法 。Newman 和 Girvan 定义 了 模块 度 函数 馈 ， 用 
复杂 网 络 由 若干 社区 组 成 ， 社 区 内 部 的 连接 比较 紧密 ， 介 社 区 划分 。 基 于 模块 度 优化 的 算法 如 模拟 退火 算法 加、 
十 区 之 间 的 连接 比较 松散 凹 。 社 区 发 现 探测 复杂 网 络 中 国 算法 609、 极 值 优 化 5 等 .虽然 有 了 很 多 的 社区 探测 算法 ， 
社区 结构 ， 是 当前 复杂 网 络 领域 的 一 个 研究 热点 。 社 区 发 FE 区 识别 的 准确 性 、 效 率 、 易 用 性 甚至 通用 性 等 方面 还 需 
助 于 分 析 复 杂 网 络 功能 、 内 在 规律 和 拓扑 结构 特性 ， 提 供 复 ; 
I 络 演 化 研究 的 中 观 视角 ， 其 研究 成 果 已 被 成 功 应 用 于 和 蛋 


lf 


0 5 引 


T 


| 让 


= 

中 

< 
长 


Ee 


过 
气 
办 
四 
己 
记 


sb 
t 


当 
二 
2 
| 
Pa 
Sr 


十 


浴 
深 
碧 


-| 
| 


肖 


基金 项 目 : 国家 自然 科学 基金 资助 项 目 (61163010，61650207); 甘肃 省 科技 计划 资助 项 目 〈(1610RJZA059); 兰州 市 科技 计划 项 目 〈2014-1-171) 
作者 简介 : 王 小 刚 (1976-)， 男 ， 甘 肃 榆 中 人 ， 副 教授 ， 博 士 研 究 生 ， 主 要 研究 方向 为 软件 工程 、 复 杂 网 络 (reswxg@mail.lzjtu.cn); 闫 光 迷 〈(1970-)， 
男 ， 教 授 ， 博 士 ， 主 要 研究 方向 为 数据 挖掘， 复杂 网 络 ; 周 宁 《1979-)， 男 ， 副 教授 ， 博 士 ， 主 要 研究 方向 为 形式 化 验证 . 


ou 805.00280v1 


chinaXiv 


录用 稿 


1 ”相关 工作 


近 些 年 ， 通 过 智能 进化 算法 进行 社区 检测 已 经 成 为 热点 。 
选择 合适 的 社区 划分 评价 函数 ， 可 以 将 复杂 网 络 社区 发 现 问 题 
转换 为 优化 问题 ， 但 是 实现 最 优化 目标 往往 是 NP 难 的 问题 。 
利用 智能 进化 算法 ， 选 择 合适 的 启发 式 规则 可 以 取得 较 好 的 近 
似 优化 结果 。 

智能 进化 社 
多 目标 优化 方法 如 : MOCD-PSON2I, MDCLH31。 单 目标 方法 
般 针 对 模块 度 进 行 优化 ， 基 本 的 思想 是 通过 和 迭代 进化 追求 模块 
度 的 最 大 化 。 智 能 进化 算法 用 于 社团 检测 出 现 较 早 的 是 模拟 退 
火 算 法 ，Guimera 等 人 提出 了 以 模块 度 为 优化 函数 基于 模拟 退 
火 算法 的 复杂 网 络 社区 检测 算法 GA 中， 该 成 果 于 2005 年 被 
《Nature》 报 道 。 

黄 发 良 提出 一 种 基于 粒子 群 优化 的 网 络 社区 发 现 算法 
(CDPSO)09,， 该 方法 基于 节点 邻居 有 序 表 的 编码 进行 全 局 搜索 
一 定 程度 上 缓解 了 基于 二 值 编码 的 迭代 二 划分 策略 导致 的 局 部 
最 优 划 分 问题 ， 这 种 基于 节点 邻居 有 序 的 方式 在 很 多 进化 社区 
检测 算法 中 得 以 使 用 。 印 晓 辉 面 向 社区 发 现 的 改进 粒子 群 优化 
算法 05, 在 上 述 方法 的 基础 上 , 使 用 最 多 邻居 从 属 的 变异 策略 ， 
即 节点 以 一 定 概率 变异 为 邻居 最 多 从 属 的 社区 。Tasgin 等 人 设 
计 了 适合 字符 串 编码 的 单 路 交叉 操作 ， 通 过 利用 GA(genetic 
algorithm) 算 法 优化 社区 模块 度 Q 函数 来 实现 网 络 最 优 划 分 的 
近似 (99。 邓 琨 等 人 给 出 一 种 基于 遗传 框架 的 社团 检测 算法 097， 
根据 节点 评价 值 实施 有 指向 性 的 变异 策略 以 克服 随机 变异 的 讶 
目 性 。 金 弟 等 人 分 析 了 模块 性 函数 的 局 部 梯度 特性 ， 结 合 遗 传 
算法 ， 提 出 快速 有 效 地 局 部 搜索 变异 策略 ， 可 用 于 大 规模 网 络 
社区 检测 n8。Gach 和 Hao 提出 的 社区 检测 算法 09 将 遗传 方法 
中 的 交叉 算 子 和 Memetic 算法 结合 在 一 起 , 用 BGLL 算法 产生 
初始 解 ， 基 于 优先 级 由 两 个 父 聚 类 的 社区 交叉 产生 新 的 社区 结 
果 。 金 弟 等 人 从 仿生 学 角度 出 发 ， 以 蚁 群 算法 为 框架 ， 
机 游 走 ， 给 出 一 种 社区 发 现 算法 PU， 将 蚂蚁 的 局 部 解 集成 为 全 
局 解 ， 通 过 “强化 簇 内 连接 ， 弱 化 艇 外 连接 ”使 社区 结构 呈现 出 3 

近 两 年 涌现 出 一 些 比较 新 颖 的 进化 社区 检测 算法 。 如 
Chopade 提出 了 一 种 基于 博 府 论 的 复杂 网 络 社区 发 现 方法 P21 
基于 纳什 均衡 将 网 络 划 分 为 紧密 的 社区 。 通 过 重新 定义 的 针对 
权重 网 络 的 节点 相似 性 、 拉 普 拉 斯 矩阵 和 模块 度 ， 在 进化 博弈 
中 寻找 针对 适应 度 的 纳什 均衡 点 。 网 络 中 每 个 节点 作为 博弈 者 
按照 最 大 化 收益 决定 将 自己 划分 到 哪个 社区 ， 直 到 每 个 节点 收 
益 不 再 增加 ， 从 而 得 到 社区 划分 结果 ; 段 震 提出 基于 商 空间 的 
多 层 粒 化 社区 发 现 方法 R23， 该 方法 对 复杂 网 络 进行 多 层次 粒 化 


区 发 现 算法 主要 分 为 多 目标 优化 和 单 目 标 优化 。 


Ghin: ai 合作 期 网 
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以 提高 计算 精度 。 根 据 密度 峰值 聚 类 原理 和 社区 属性 确定 社区 
中 心 节点 ， 然 后 根据 节点 间 的 距离 得 到 社区 内 部 层次 结构 和 社 
区 外 部 的 自然 结构 ， 最 后 将 剩余 节点 按 距 离 分 配 到 相应 的 社区 
中 ， 得 到 社区 划分 结果 。 

与 粒子 群 、 蚁 群 等 算法 比较 ， 布 谷 鸟 算 法 是 一 种 新 颖 的 智 
能 进化 算法 ， 具 有 很 强 的 搜索 能 力 ， 算 法 只 需要 一 个 参数 ， 易 
于 实现 ， 效 率 高 。 目 前 ， 应 用 于 模块 度 优化 的 布谷 鸟 算法 很 少 
见 到 ， 本 文 提出 结合 基因 遗传 和 贪 禁 搜索 的 布谷 鸟 社区 检测 算 
法 (cuckoo search algorithm combining gene inheritance and greedy 
基于 布谷 鸟 算法 的 
邻接 表 随 机 游 走 的 全 局 搜索 算 


search for community detection, GGCSCA) ， 
框架 和 搜索 能 力 ， 构 造 一 种 基 


法 ， 并 融合 了 全 局 基因 保留 和 局 部 贪心 算法 ， 目 的 是 基于 智能 
进化 获得 更 好 的 复杂 网 络 社区 识别 和 检测 能 力 。 实 验 结果 说 明 
算法 有 效 可 用 ， 并 且 相 对 具有 较 好 的 收敛 性 、 准 确 性 。 


2 布谷 鸟 算法 


布谷 鸟 算法 是 Yang Xin-she 提出 的 一 种 群 智能 搜索 算法 P4， 
该 算法 搜索 速度 快 ， 精 度 高 ， 已 被 广泛 应 用 于 科学 研究 和 工程 
实践 的 优化 问题 。 该 算法 灵感 来 自 于 布谷 鸟 的 寄生 梨 行为 。 每 
个 鸟巢 代表 一 个 候选 解 , 通过 基于 Zevy 飞行 的 随机 游 走 方式 搜 
索 新 的 解 ， 具 有 很 强 的 全 局 搜索 能 


设 X,={x ,xX,,…,} 是 某 n 维 鸟巢 当前 解 , 通过 式 (1) 产 生 
新 的 解 。 
X =X:+a®DLevy (1) 
a 是 步 长 , Levy 飞行 随机 游 走 公式 为 
L(s)~s™ (1<4<3) Q) 


其 中 : s 是 游 走 步 长 , 4 是 步 长 规模 参数 ,按照 Mantegna 的 算法 ， 


Lu 
= 到 (3) 


-~N(0a),v-N(0a)a 是 正 态 分 布 ,a, =1， 


up 
T(1+B)sin(ap8 /2) (4) 
这 二 

” |TTG+ 17121820 
布谷 鸟 算 法 在 当前 解 的 基础 上 通过 Levy 飞行 随机 游 走 产 
E 新 的 解 , 评价 并 保留 较 好 的 解 ; 然后 以 概率 pa 丢弃 部 分 解 ， 
偏好 搜索 重新 生成 与 丢弃 解 相 同 数量 的 解 ， 再 次 评价 并 保留 
较 好 的 解 。 
以 上 是 基本 的 布谷 鸟 算 法 ， 适 用 于 连续 空间 的 函数 优化 问 
题 ， 难 以 直接 用 于 复杂 网 络 空间 的 社区 检测 问题 ， 本 文 借助 于 
该 算法 的 基本 思想 和 基本 框架 ， 针 对 求解 的 问题 ， 设 计 和 实现 


| 


操作 ， 形 成 逐 层 粒 化 和 抽象 的 多 粒度 商 空 间 ， 并 选择 最 佳 粒 层 
作为 划分 结果 。 金 志 刚 提 出 基于 密度 峰值 聚 类 的 自 适 应 社区 发 
现 算 法 CKDED ) P3]， 算 法 将 节点 关系 量化 为 基于 信任 度 的 距 
离 矩 阵 , 根据 距离 矩阵 核 密 度 估计 和 节点 影响 力 大 小 统计 分 析 ， 
结合 热 扩 散 模型 改进 计算 流程 ， 使 其 自 适 应 不 同 规模 的 数据 集 


了 一 种 适合 复杂 网 络 离散 空间 的 布谷 鸟 社 区 检测 算法 。 
3 ”布谷 鸟 社区 检测 算法 


3.1 评价 函数 
评价 函数 使 


Newman 的 模块 度 函 数 芭 2 
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m 是 网 络 


否则 等 于 0。 


度 ,，C, 表 示 i 所 
公式 的 含义 是 : 社 


o- 二 中 4 ec.cn (5) 
Te ee 
遇 的 社区 , 当 ij, j 属于 同一 社区 时 6(C,C)) =1， 


区 内 总 边 数 和 网 络 总 边 数 的 比 


值 减 去 一 个 期 望 值 ， 该 


很 多 社 


区 分 配 所 形成 的 社 
一 种 数学 方式 刻 化 的 社 
区 发 现 算法 基于 模块 度 


期 望 值 假设 网 络 是 随机 网 络 时 同样 的 社 
区 内 总 边 数 和 网 络 总 边 数 的 比值 大 小 。 这 是 
区 划分 评价 , 它 的 取 值 范围 是 -0.5 到 1。 


天 化 ， 目 标 是 尽 可 能 最 大 化 模块 


度 ， 但 是 优化 Q 是 NP 难 问题 ， 所 以 都 是 近似 优化 。 模 块 度 方 


规模 相关 。 尽 
不 失 为 一 种 有 效 地 通 


法 缺点 是 难以 发 现 小 于 一 定 规模 5 的 小 社团 ，5 与 具体 的 网 络 
管 有 这 样 的 模块 度 限 制 上 5， 模 块 度 优化 方法 依然 


用 方法 。 式 (5) 的 模块 度 函数 针对 无 向 无 权 


网 络 ， 有 向 网 络 和 带 权 网 络 有 对 应 的 类 似 模块 度 函 
度 函 数 优化 的 角度 出 发 ,本 文 基于 无 向 无 权 网 络 ,不 失 一 般 性 。 
息 编码 


3.2 信 


数 ， 从 模块 


布谷 鸟 梨 穴 编码 采用 基于 节点 标号 的 编码 方式 ， 设 
G=(V, 五 ) ? 节点 数 为 n » 对 于 一 个 利 穴 解 X， ={x ,Xs 
若 久 x =k,， m=1:: 


im 


网 络 为 


Xi 


.:n， 则 表示 节点 m 和 处 于 同一 个 社区 中 ， 


最 后 通过 归并 可 以 得 到 社区 


为 基础 , 梨 穴 逐 


的 邻居 节点 序列 上 随机 游 走 


的 划分 结果 。 本 文 以 邻居 有 序 表 0 
至 维 在 网 络 上 进行 随机 游 走 , 即 x 的 值 在 节点 m 


取得 ， 保障 不 会 产 


生 非 法 解 。 初 始 


化 时 ， 
图 1(a) 是 简 
网 络 邻 
穴 编码 。 


im 


x 随机 
和 网络 示例 ， 
居 有 序 表 如 表 1 所 示 ， 图 


1 


取得 节点 m 邻居 节点 序列 中 的 某 个 节点 标号 。 
图 1(b) 是 该 网 络 划 分 的 两 个 社区 ， 该 
1(c) 中 的 向 量 表示 了 布谷 鸟巢 


表 1 邻居 有 序 表 
节点 编号 ”邻居 节点 序列 


1 2 3 
2 1 3 
3 1 2 4 
4 3 5 6 
3 4 6 7 
6 4 5 7 
区 5 6 
硬 维度 值 值 维度 
~ 四 
/\ _ 1 a i 
CY—@) 213 可 | : 
3 本 | 一 | : 
4 同 | Ilsa 
(0 A 5 | — fals 
才 6|7L sls 
A 归 省 
mp 
一 全 
a (O 鸟 集 编码 及 逐 维 以 
概率 p 随 机 游 走 


网 络 社区 、 鸟 巢 编 码 及 网 络 上 的 随机 游 走 


王 小 刚 ， 等 : 双 布谷 


3.3 ”算法 框架 和 实现 
3.3.1 基于 邻居 表 的 逐 维 随机 游 走 和 基因 遗传 


Xv 会 作 期 刊 ， 


社区 检测 


布谷 鸟 搜索 算法 全 局 搜索 基于 随机 游 走 。 本 文 设计 的 随机 


于 邻接 有 序 表 的 逐 维 
,如 ， 下 一 时 刻 变 成 XP ={ 硬 , 划 ，…， 


游 走 是 如 
1 在 
X, ={w, 鸡 


如 图 


到 x 是 以 概率 p 在 邻接 表 上 随机 游 走 而 得 到 ， 


对 于 每 个 集 
性 ， 每 一 代 较 大 程度 上 还 要 在 上 一 代 的 基础 上 进化 ， 
解 的 效率 和 收敛 。 为 此 每 一 代 除 全 局 最 优 解 外 ， 再 取 
优 鸟巢 解 保 存在 精英 库 有 ={h,h,,…, 有 }。 
x(j=1n) 可 看 做 是 一 个 基因 , 引入 基因 遗传 策 
率 P. 和 p, 保留 某 精英 基因 (hh ) 和 全 局 
次 迭代 得 到 x 的 公式 为 : 


k rand < p. 
x =4h 


六 mj 


gbest 


p. Srand<p, 
rand > p, 
h,=H (ceil(random x 5)) 
k 由 随机 游 走 得 到 。 式 (7) 表 示 随 机 
表示 向 最 近 大 整数 取 整 。 
下 面 给 出 布谷 鸟 社区 搜索 算法 框架 
算法 1 布谷 鸟 社 区 搜索 算法 


穴 和 ,除了 用 随机 游 走 保证 解 的 灵活 性 和 全 


X 的 每 一 位 
各 : 分 别 按 概 


随机 游 走 。 某 鸟 梨 解 tl 时 刻 为 
只} ， 从 四 


1(c) 所 示 。 


可 


以 保证 求 


前 s 个 较 


每 


最 优 解 ( gbest ) 基 因 。 


(6) 


(7) 


由 取 精 英 库 中 的 某 个 解 , cei] 


Input: 复 杂 网 络 G =(V,E) ,鸟巢 规模 1 ,偏好 搜索 概率 pa ， 


连 代 次 数 iter 。 


Output: 社 区 划分 C={C,C,,…,C.} 

begin: 

根据 网 络 构建 邻居 有 序 表 A4Taple ; 构建 规模 为 的 精英 
库 囊 = 人 ,万 …, 六 } ， 元 素 初 始 值 为 空 ，f =0; 

定义 和 

初始 化 布谷 鸟巢 穴 种 群 , 每 个 巢穴 X 各 维 随机 取得 邻居 有 
序 表 中 的 值 ， 计 算 目 标 函 数值 ， 得 到 初始 o 值 ; 


更 新 精英 库 厂 ={h,hb,…, 有 h); 


按 式 (6) 更 新 巢穴 , 每 个 梨 


羡 X; 部 分 继承 优秀 基 医 


, 部 分 在 


邻接 表 上 随机 游 走 一 次 ， 得 到 新 的 巢穴 X ; 
根据 Xi ,计算 目标 函数 值 , 若 Q(X/) >Q(Xi), 则 
将 Q(X;) ，i=1,2,…1 中 的 最 大 值 best 与 当前 
gbest 比较 ， 若 best > gbest ， 则 gbest < best ; 
执行 局 
得 到 新 的 菜 穴 X ， 
步 ; 


1 二 1+1; 若 达 代 次 数 1<iter , 转 第 4 步 执行 ;否则 
步 ; 


退出 迭代 ， 对 最 优 解 gbest 解码 ， 获 得 社 


C={C,C,, GC}. 


X, < XI ; 


整体 最 优 


部 贪 焚 搜 索 算 法 GreedyLocal(X, pa) ( 见 算法 2 )， 
依次 执行 第 6 步 ， 第 7 步 ， 然 后 


执行 第 9 


执行 第 10 


区 划分 
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3.3.2 局 部 偏好 搜索 


局 部 偏好 搜索 的 


的 是 提高 种 群 质 量 ， 加 速 搜 索 过 程 。 


本 


局 部 搜索 方法 使 用 贪 禁 算法 MI， 利 用 模块 度 公式 计算 节点 ; 离 


开 当 前 所 在 社区 进入 其 他 邻接 社区 时 产生 的 模块 度 增 量 AQ ， 


找到 使 得 AQ 最 大 的 那个 社区 作为 该 节 


点 的 移入 社区 


区 。 这 主要 


ChinaXiv 合 作 期 于 


， sh 
王 小 刚 ， 等 : 结合 基因 遗传 和 贪 禁 搜 索 的 布谷 乌 佐 出 法 


算法 最 主要 的 步骤 及 复杂 度 是 ，a) 构 建 邻居 有 序 表 时 间 复 


杂 度 为 O(m) ; 


b) 初 始 化 鸟巢 ， 复 杂 度 为 O(1xn) ;0) 逐 维 随机 


游 走 选择 一 个 邻居 节点 或 基因 保留 运算 ， 复 杂 度 为 


O(iterxlxn); 


分 两 步 ，1) 使 节点 ;离开 原 社区 成 为 独立 节点 产生 的 AQ,， 见 


式 (8);2) 使 该 独立 节点 ;移入 新 社区 产生 的 增 量 AQ, , 见 


AO-AO+AO, 。 在 式 (8) 和 (9) 中 六 
的 社区 内 部 连接 权重 和 ，》 


代表 节点 ; 待 加 入 (离开 ) 
代表 与 节点 i 待 加 入 (离开 ) 的 
社区 内 各 点 连 边 ( 包 括 社区 内 连接 和 社区 外 连接 ?的 权 习 


代表 节点 ;的 度 ，， 
该 社区 内 节点 连 边 权重 和 。 


x =argmax, AQ (x.,j|jek) 


代表 在 竺 加 入 《离开 ) 社 


,是 节点 i 的 邻居 ， 则 对 节点 i 


式 (9)。 


友之 和 。 
区 内 节点 与 


(8) 


(9) 


(10) 


即 取 使 得 AQ 最 大 的 邻接 点 作为 更 新 位 置 。 


偏好 搜索 步骤， 
算法 2 局 部 贪 焚 搜 索 算 法 
Input 布谷 岛 梨 穴 六 ={X,X,,…,X,}， 


AdTable， 概 率 pa 


Output 偏好 搜索 优化 后 的 布谷 


Xx ={X,,X,,-- a 
decode(X) ,对 各 候选 策 穴 X, (i 二 
社区 划分 。 

以 概率 pa 确定 梨 穴 xX,(i= 


1…) 进行 解码 归并 ,得 到 对 应 


1..7) 的 部 分 候选 基 


局 部 


久居 有 序 表 


鸟 梨 穴 


局 


| 


如 (7=1 1) ， 计算 当 节 点 了 离开 所 在 社区 加 入 其 


时 的 AO ，AO=AO +AO, 计算 见 式 (8)、(9)。 
找到 使 Ao 最 大 的 社区 ， 使 } 加 入 该 社 
获得 新 的 巢穴 X'={X,X,,…,X,} 

3.4 算法 时 间 复 杂 度 分 析 


[x| 


他 邻居 社区 


设 节 点 数 为 nn ， 边 数 为 m ， 鸟 巢 数 为 1 ， 循 环 迭 代 次 数 为 


iter ， 平 均 度数 为 4= 室 。 
n 


区 数 是 c， 


计算 模块 度 复 杂 性 为 : O perxlxexl 2 ] 局 部 
c 


全 上 


d) 解 码 归 


十 区 复杂 度 为 O(iter x1xn); e) 设 社 


7 禁 搜 索 中 计算 AO 只 需要 局 部 信息 ， 所 以 其 复杂 度 为 


Oliterxlxd) o 


1 为 弟 数 ， 所 以 复杂 度 为 0[ 生 -0(m)， ] 
Ce 


复杂 性 最 高 的 是 olierxisex(® 


Ce 


模 ， 一 般 远 小 于 no 


4 ”实验 及 分 析 


数值 实验 在 Inteli5 处 理 器 、4G 内 存 和 win7 操作 系统 的 电 
脑 上 运行 , MATLAB 2011 环境 下 编程 计算 。 参 数 设 置 : 布谷 鸟 


算法 中 , 按 一 般 性 设 


， 种群 规模 | 为 25, 偏好 搜索 概率 pa 为 


0.25; 精英 规模 s 为 4。 


参数 分 析 


六 和 p, 分 别 是 继承 某 精英 基因 (有 ) 和 全 局 最 优 解 ( gbest ) 


[i 


让 


基因 的 概率 阔 值 。 
独立 运行 20 次 的 平均 值 ， 得 出 p, 对 模块 度 值 的 影响 如 图 2 所 
图 中 四 个 网 络 分 别 是 Karate (空手 道 
i 络 ), Football( 足 球 联盟 网 络 )09 和 500 个 节点 的 
人 工 生成 网 络 Lff500。 可 以 看 出 ， 在 不 考虑 继承 其 他 精英 基因 
的 情况 下 ，p, 取 0.1 时 效果 最 好 ， 说 明 在 保持 一 定 灵 活性 和 随 


限 设 种 群 只 继承 最 优 基因 ， 通 过 


以 p, 为 例 ， 


具 乐 部 网 络 )， 


机 性 的 基础 上 尽量 继承 最 优 ( gpest ) 基 因 效 果 最 佳 , 所 以 按 式 (6)， 
p。 和 ,应当 在 0.1-0.3 之 间 ， 且 不 应 该 超过 P。 。 综 合 以 上 
分 析 ， 在 本 实验 中 p_ 设 为 0.1，p, 取 0.2。 


0.7r 


4.1 ”人工 网 络 
通过 Lancichinetti 提出 的 基准 测试 网 络 P9 考 察 算 法 对 社 
， 该 网 络 有 128 个 节点 ， 分 成 4 个 社区 ， 每 个 社 
区 32 个 点 ， 节 点 平均 度 16。 生 成 网 络 时 的 混合 参 


区 的 识别 能 


Dolphin 
Football 


-Karate 
Lfr500 


0.1 02 03 04 05 06 07 0.8 0.9 
Pg 


图 2 参数 p, 对 模块 度 值 的 影响 


数 w， 显著 


影响 社区 结构 


率 1- /连接 社 


其 作用 是 : 以 概率 jy 连接 社区 外 部 节点 ， 以 概 


区 内 部 节点 。44 从 0.1 到 0.5 社区 结构 从 清晰 变 
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A 与 BB 是 两 种 社区 划分 ，C 是 混合 矩阵 ， 
A 和 B 中 社区 的 个 数 。 GC; 是 划分 A 中 的 社区 i 与 划分 B 中 的 社 
区 j 中 重合 的 节点 个 数 ，C; 表示 C 中 i 行 元 素 之 和 ，C; 表示 C 
中 j 列 元 素 之 和 。NMI 取 值 范围 在 [0,1] 区 


C4 与 Cs 分 别 是 


分 完全 一 致 ，0 表示 完全 不 同 。 


将 算法 生成 的 神 


间 ，1 表示 两 社 


又 划 


区 结构 与 真实 社区 结构 进行 规范 化 互信 息 
评价 ， 并 与 igraph 软件 中 内 置 的 5 种 社区 


InfoMap, FastGreedy, LeadingEigenvector, BGLL, LPA. 


俐 一 一 一 一 学 Je 
0.9 
0.8r- 
0 
md [EGGCSCA 
三 0.5 InfoMap 
双 0.4-. 。 FastGreedy 
03 LeadingEigenvector 
BGLL 
0.2 - LPA 
| 


015 02 025 03 035 04 0.45 05 


混合 参数 mu 


图 3 几 种 算法 在 人 工 网 络 上 的 NMI 


分 别 以 混合 
50 次 ， 求 得 NMI 
0.2 两 个 网 络 ， 各 个 算法 都 能 正确 或 基本 正确 地 识别 ， 


平均 值 。 根 据 


现 


值 比较 


3 可 以 看 上 


x 发 现 经 典 算法 比较 : 


参数 0.1-0.5 产生 5 个 网 络 , 每 个 算法 独立 运行 
bh， 对 4 为 0.1 和 
A 为 0.3 


时 结果 产生 分 化 ，LPA 和 LeadingEigenvector 的 结果 分 别 降 到 


了 0.9 和 0.86, 到 第 4 个 网 络 只 

完全 正确 识别 , 其 他 几 个 算法 识别 
其 NMI 值 也 仅 是 0.89。 对 前 四 个 网 
GGCSCA 都 能 准确 
网 络 ， 本 文 算 法 NMI 为 0.41 优 于 
证 明了 本 算法 的 入 


4.2 经 典 网 络 


识别 ， 


区 探测 识别 能 


用 3 个 经 


数据 


乐 部 网 络 )，Dolphin( 海 豚 网 络 )， 


4.2.1 收敛 情况 


由 图 4 可 以 看 出 算法 很 快 就 收敛 。 空 手 道 
迭代 《〈 一 次 迭代 指 种 群 的 


下 


09 进 行 实验 ， 分 别 是 


Karate ( 空 


有 BGLL 和 本 算法 GGCSCA 能 
最 好 的 LeadingEigenvector 
络 BGLL 算法 和 本 文 算法 
明显 优 于 其 他 几 种 算法 ; 对 于 第 5 种 
F BGLL 算法 的 0.32。 这 充分 


手 道 俱 
Football( 足 球 联 盟 网 络 )。 


道 俱 乐 部 仅 用 2 次 


次 全 局 搜索 和 


次 局 部 偏好 搜索 ) 


就 收敛 到 全 局 最 优 值 0.4198， 和 迭代 次 数 最 多 的 Football 达 代 次 
数 也 没有 超过 25 次 。 


4.2.2 社区 划分 及 评价 
表 2 是 各 种 算法 


算法 中 包含 两 种 典型 智能 进化 算法 
和 遗传 算法 CCGAU829] 。 
表 2 各 算法 在 经 典 网 络 上 的 模块 度 值 比较 

算法 Karate Dophin Football 

BGLL 0.4176 0.5222 0.6037 

CNM 0.3807 ”0.4955 0.5497 

PSO 0.409 0.511 0.598 

GN 0.4013 0.4706 0.5996 

LPA 0.3805 0.4963 0.5915 

CCGA 0.4198 0.5273 0.6005 

infomap 0.4020 0.5236 0.6005 

KDED 0.402 0.447 0.585 

GGCSCA 0.4198 0.5275 0.6037 


他 算法 ( 仅 有 


天 社区 网 络 宰 


构 是 有 偏差 的 ，karate 


[图 5 与 表 3 所 示 。 


中 SS karate 网 络 社区 


| ChinaXiv 合 作 其 
录用 稿 王 小 刚 ， 等 ;! 结合 基因 遗传 和 页 可 搜索 的 布谷 岛 社区 答 测算 
模糊 ，j4 <0.5 时 一 个 节点 的 邻居 属于 同一 个 社区 的 概率 大 于 社 
广 外 ， 社 区 结构 应 该 能 够 识别 出 来 当 取 0.5 时 ， 每 个 节点 平 
均 有 一 半 的 连接 指向 了 社区 外 的 节点 ， 此 时 社区 结构 就 比较 模 
糊 。 

本 实验 采用 规范 化 互信 息 (NMDP7? 来 评价 社区 识别 效果 ， 时 
如 式 (10) 所 示 。 Karate 

Dophin 
$0, 和 [ 受 Football 
NMLCB) 宇 = C, 0 10 20 25 30 
>croslS 人 + oe 迁 代 次 数 
图 4 GGCSCA 算法 收敛 图 


对 3 个 网 络 分 别 计算 模块 度 50 次 得 到 的 
: 粒子 群 算 法 (PSO) 


网 络 ， 本 算法 GGCSCA 模块 度 Q 取得 了 0.4198 
CCGA 也 取得 0.4198), 高 
上 区 结构 对 应 的 Q 值 0.3715， 从 模块 度 优化 
度 来 说 本 方法 取得 了 很 好 的 结果 。 从 另外 一 点 来 看 ， 对 有 些 网 
络 ， 数 学 方法 衡量 


于 Karate 


的 角 


量 的 模块 度 相 对 于 人 为 划 定 的 真实 网 络 社区 结 

网 络 真实 的 社区 结构 为 2 个 社区 ， 对 应 

3 部 Q 最 大 值 而 非 全 局 最 大 值 沾 ， 但 按 文献 [18] 说 法 这 也 是 
it 4 个 社区 ， 而 这 4 个 社区 真 好 是 

十 区 的 更 紧凑 细 分 。GGCSCA 算法 产生 的 社区 划分 情 
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表 3 karate 网 络 社区 划分 
真实 社区 算法 产生 社区 ”【〔 细 分 ) 
社区 社区 
, 节点 编号 节点 编号 
编号 编号 
123481213141820 
123456781112 0 
0 22 
13 14 17 18 20 22 
1 5671117 
9 10 15 16 19 21 23 24 9 10 15 16 19 21 23 27 30 
1 25 26 27 28 29 30 31 31 33 34 
32 33 34 3 24 25 26 28 29 32 


与 空手 道 网 络 类 似 ， 海 豚 网 络 的 真实 网 络 对 应 于 Q 值 


0.3722， 


于 其 他 几 个 算法 ， 
区 ， 本 方法 所 得 是 5 个 更 紧凑 划分 的 社 


为 2 个 社 


也 是 收敛 于 


完全 对 应 ， 另 一 个 社区 细 分 为 4 个 神 


与 表 4 所 示 。 


局 部 最 优 。 本 算法 得 到 平均 值 0.5278， 优 


模块 度 优 化 取得 了 好 的 结果 。 真 实 网 络 划分 


区 ， 一 个 社区 


oF 
字 
小 


王 小 刚 ， 等 : 台 


节点 基本 被 正确 识别 ，1 个 真实 社区 节点 被 分 配 到 世 
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| 
遗传 和 贪 禁 搜索 的 布谷 乌 社 da, 


他 社区 ， 


如 图 7 和 表 5 所 示 “上 标 代表 该 节点 在 对 方 社 区 的 编号 )。 


对 


7 Football 网 络 社区 图 


表 5 Football 网 络 社区 划分 


区， 划分 社区 情况 如 图 6 


图 6 Dolphin 网 络 社 


表 4 Dolphin 网 络 社 区 划分 


真实 社区 和 法 产生 社区 〈 细 分 ) 
社区 社区 
节点 编号 节点 编号 
编号 编号 
1567913171922 15679131719 2225 
0 25 26 27 31 32 41 48 1 26273132 41 48 54 56 
54 56 57 60 57 60 
0234810111214 4 02 10202830424447 
15 16 18 20 21 23 24 41115182123242935 
28 29 30 33 34 35 36 45 51 55 
1 37 38 39 40 42 43 44 0 383639 59 


45 46 47 49 50 51 52 
53 55 58 59 61 


12 14 16 33 34 37 38 40 
43 46 49 50 52 53 58 61 


对 于 Football 网 络 ， 本 算法 GGCSCA 计算 的 Q 平均 值 取 
得 0.6037， 与 BGLL 算法 的 值 相同 ， 优 于 其 他 算法 。 足 球 俱 乐 


部 的 


分 结果 为 11 个 社 


实 网 络 划分 为 12 个 社区 ， 本 算法 运行 过 程 中 最 好 的 划 


真实 社区 算法 产生 社区 《匹配 ) 
社区 Ee 社区 Po 
油 节点 编号 吉 节点 编号 

1 25 33 37 45 89 103 1 25 33 37 45 89 103 105 
105 109 : 109 

19 29 30 35 55 79 94 19 29 30 35 55 79 (80 82)" 
: 101 - 94 101 

2613 15 32 39 47 60 2613153239476064 
. 64 100 106 " 100 106 

35 104052727481 35 104052727481]1 84 
84 98 102 107 ” 98 102 107 

44 48 57 66 75 86 91 44 48 57 581'° (59 63)?66 
“ 92 110° 112 . 75 86 91 92 97? 112 

12 14 18 26 31 34 38 12 14 18 26 31 34 36' 38 
. 43 5461 71 85 99 422 43 54 61 71 85 99 
6 04916234193 104 2 04916234193 104 

7 8 21 22 51 687778 7 8 21 22 51 68 77 78 108 
108 111 111 

17 20 27 56 62 65 70 17 20 27 56 62 65 70 76 87 
76 87 95 96 113 . 9596 113 

11 24 50 (59 63) 69 
9 10 11 24 2810 50 69 901 

978 

28'° 46 49 53 588 67 

10 6 49 53 67 73 83 88 1104 114 
73 83 88 114 
11 (3642)! (80 82)’90" 
5 ”结束 语 


本 文 提出 的 算法 以 模块 度 Q 为 评价 函数 ,以 布谷 鸟 算法 为 


框架 ,结合 邻接 表 上 的 随机 游 走 和 


基因 遗传 策略 ， 并 应 用 最 大 


又 ， 有 6 个 入 


上 区 完全 正常 匹配 ， 


5 个 社区 的 


模块 度 增 量 的 局 部 偏好 搜索 ， 在 保证 全 局 灵活 性 的 同时 加 快 种 


录用 稿 


群 的 收敛 。 在 基准 网 络 和 真实 网 络 上 的 实验 说 明 本 算法 具有 较 
好 的 社区 识别 和 检测 能 力 。 算 法 无 须 提 供 有 关 社 区 的 先 验 知识 
和 假设 ， 可 以 有 效 揭示 网 络 内 在 的 社区 结构 。 下 一 步 研 究 将 其 
与 其 他 算法 结合 ， 提 高 搜索 效率 ， 用 并 行 化 机 制 实现 ， 应 用 到 
银行 交易 网 络 等 大 型 实际 复杂 网 络 的 社区 发 掘 研究 上 。 
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